Model Selection

Visual Document Retrieval

# Visual Document Retrieval

A multimodal embedding model based on Qwen2.5-Omni-7B, supporting unified embedding representations for cross-lingual text, images, audio, and video

Multimodal Fusion

BiQwen2 is a visual retrieval model based on Qwen2-VL-2B-Instruct and the ColBERT strategy, focusing on efficient visual document retrieval.

Safetensors English

Nomic Embed Multimodal 7b

A 7-billion-parameter multimodal embedding model specialized in visual document retrieval tasks, achieving outstanding performance on the Vidore-v2 benchmark

Text-to-Image Supports Multiple Languages

Nomic Embed Multimodal 3b

Nomic Embed Multimodal 3B is a cutting-edge multimodal embedding model focused on visual document retrieval tasks, supporting unified text-image encoding, achieving an outstanding performance of 58.8 NDCG@5 in the Vidore-v2 test.

Text-to-Image Supports Multiple Languages

Colnomic Embed Multimodal 3b

ColNomic Embed Multimodal 3B is a 3-billion-parameter multimodal embedding model specifically designed for visual document retrieval tasks, supporting unified encoding of multilingual text and images.

Multimodal Fusion Supports Multiple Languages

A visual retrieval model based on SmolVLM-Instruct-500M and the ColBERT strategy, capable of efficiently indexing documents through visual features

Safetensors English

ColQwen2 is a visual retrieval model based on Qwen2-VL-2B-Instruct and the ColBERT strategy, designed for efficient indexing of document visual features.

Safetensors English

Dse Qwen2 2b Mrl V1

DSE-QWen2-2b-MRL-V1 is a dual-encoder model specifically designed for encoding document screenshots into dense vectors to facilitate document retrieval.

Multimodal Fusion Supports Multiple Languages

ColPali is a vision-language model based on PaliGemma-3B and the ColBERT strategy, designed for efficient document indexing from visual features.

Text-to-Image English

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase